国家社会科学基金重大项目成果推介| 吕鹏:人类网络群体行为生命周期模型研究
欢迎关注“湖南师大社科学报”
作者简介
吕鹏
中南大学公共管理学院教授,中南大学社会计算研究中心主任,教育部“长江学者”青年学者。清华大学自动化系博士后,清华大学社会学系博士,美国芝加哥大学联合培养博士 。国家社科基金重大项目首席专家。中共中央直属机关青联委员、湖南省“湖湘青年英才” 、国家民委“优秀中青年专家” 、中央网信办“特约研究员” 、入选国家级青年人才项目 。
人类网络群体行为生命周期模型研究
核心提示
通过大数据分析与ABM仿真双轮驱动,计算社会学可以打通宏观与微观研究。人类网络群体行为稳健地涌现“生命周期”宏观规律,需要微观行为机制支撑。大数据方面,使用2019年网络舆情事件轨迹数据作为宏观目标特征;微观行为方面,采用两类智能体,提出“流量动力学”理论,设置个体行为机制。ABM模型在微观层面抓住核心机制,进而在宏观层面精准复现了生命周期进程。按照多维度指标,模型最优解具有预测高精度、重复稳健性。基于模型,可以预测网络群体事件生命周期轨迹及其叠加趋势。
内容精选
一、研究问题的提出
从信息社会到数字社会,互联网空间逐渐成为人类活动主场域、主阵地。人类网络群体行为日益受到关注,催生网络舆情事件、饭圈现象、短视频、慢直播等研究。在新时期,虚拟空间与实体空间两大场域,共同塑造并承载着人类社会实践。两个场域交织、映射、互动愈发频繁,实体与虚拟难分彼此。人类网络群体行为以网络舆情事件为主要表现类型,持续引发公众参与和社会关注。在线“吃瓜”、讨论、评论等,成为网络生活新常态。各界均对此予以高度关注,具体包括:(1)政府设立新机构应对网络舆情。做好网络舆情工作、维护虚拟空间秩序成为政府重点工作。2011年国家互联网信息办公室(网信办)设立,各地成立相应部门。鉴于对公共安全、网民心态及社会秩序冲击巨大,政府舆情回应具有迫切性。2016年国务院印发通知,首提政务舆情回应制度。2018年3月国家网信办与中央网络安全和信息化委员会办公室合署。2018年国家进一步提出建立政务舆情回应问责制度, 要求评估效果。各地政府都在不断提升与互联网打交道的能力(舆情回应)。截至2020年12月,经过新浪平台认证的政务机构微博140837个、政务头条号82958个。作为舆情管理与网络维稳部门,网信办在政府治理中的权重逐年提升,政府工作流程随之优化。(2)网络对社会同样产生深远影响。不仅对政府,网络舆情同样成为个体公民(特别是名人)、企事业单位、社会组织等社会主体的压力来源之一。舆情导致个体信息被网络放大、被网民消费、被公众施压。在数字社会与互联网世界,网络舆情应对成为必备生存技能,绝大部分主体都需要提升舆情应对能力。(3)掌握人类群体行为规律是科学应对的工作基础。近五年,人类群体行为如网络舆情,逐渐变成主流研究对象,研究呈指数级增长。实践表明,枉顾科学规律的僵硬干预如回避、删帖、灌水等,不能解决问题,反而会激发矛盾。应尊重生命周期客观规律,重视对微观行为的挖掘,并进行科学应对。
人类网络群体行为是众多微观行为体共同参与过程,是由个体表现出来且在群体中相互作用的结果。作为一种宏观涌现,生物界、自然界、人类行为等的生命周期具有跨系统普适性。生命周期,是指生物在形态或功能上经历的一连串改变,如生理学家把人的生命周期分为生长发育期、成长期和老年期三个阶段。人类网络群体行为生命周期规律,存在学术界共识,例如网络舆情“生命周期”包括酝酿、发展、爆发、衰退、消亡等过程 。而各阶段划分,存在细微差别,如薛澜(2005)划分为预警期、爆发期、缓解期和善后期 ;张维平(2006)归结为潜伏期、显现期、演进期、缓解期和消失期 ;陈安等(2009)分为发生、发展、演化与消退四阶段;谢科范等(2010)分为潜伏期、萌动期、加速期、成熟期、衰退期五个阶段 ;张磊(2015)也分为潜伏期、成长期、成熟期、衰退期四阶段 。已有学者注意到生命周期规律可用于社会治理。例如,左蒙与李昌祖(2017)提出建立监测指标体系、建立预警模型、发展演化分析、传播动力分析、舆情管控措施等,但属于初步探索,可重复性不足。关于生命周期原因与机制,一直存在相关讨论。早期有意见领袖研究、“沉默的螺旋”理论等。近来,张一文等(2011)认为媒体、政府、网民、突发事件四个主体塑造生命周期走向。曹学艳与张仙等(2014)认为舆情热度与事件爆发度、网民作用度、媒体关注度、政府应对度等相关。张淑华(2015)认为事件越敏感、越能快速引起聚焦、爆发网络舆情事件。许鑫(2016)认为,政府回应的主体、速度、形式和渠道,对网络舆情衰退具有决定作用。高危引爆点可以分为涉官、涉富、涉黄、涉暴、涉假、涉弱六类。上述研究停留在理论探讨、案例收集、实证研究层面,结论具有表面性、描述性、局部性,对微观动力学机制认识、挖掘不足。本研究在理论上试图整合生命周期的微观动力学机制,在研究方法上提出ABM智能体模型,提升研究的可重复性。
人类网络群体行为生命周期模型,旨在揭示宏观涌现的底层微观动力学机制,整合微观行为与宏观演化过程。具体回答:(1)哲学方法论与核心问题。哲学上,生命周期是增长与限制两种机制的辩证统一。如果一直处在增长期,就不存在生命周期。这说明,核心问题不是增长机制,而是限制机制。(2)限制机制何时发挥作用?并非仅在峰值之后阶段发挥作用,实际是全过程发挥作用。(3)单事件生命周期轨迹特征。稳健存在的生命周期全过程轨迹曲线,呈现寿命、峰值、曲线、相对位置等特征。整合相同特征信息的轨迹曲线如何重复地获得?将通过仿真予以重现。(4)多事件生命周期事件之间互动关系。尽管生命周期规律不变,形态特征要受到他者影响。多事件之间,可能存在相互替代关系。大数据表明:某个(些)网络舆情事件的衰落,往往伴随另一个(些)事件的兴起。(5)总体限制性机制。激发性机制已经有研究,但限制性机制较少被关注,包括单个、多个事件。此外,共存性事件之间可能存在流量竞争关系,客观上或主观上,都在竞争性争取网民关注。注意力机制,这可能是所有事件的总调节、总限制性机制。本文通过大数据挖掘、模型设置与仿真模拟,精准复现生命周期过程,回应理论关切。方法论层面,坚持大数据挖掘与仿真模拟双向验证,高精度还原单个事件与时间序列中多事件系统涨落起伏、交替演化过程。
一、文献回顾与理论梳理
《周易·系辞》中说:“一阴一阳之谓道”。这里“阴”是限制性、约束性机制,“阳”是促进性、激发性机制。人类网络群体行为正是在增长机制(阳)与限制机制(阴)共同作用之下,呈现稳健而持久的生命周期规律,即人类网络群体行为之“道”。
(一)关于增长机制的因素梳理
人类网络群体行为可追溯到人类群体行为研究。除了政治机会、人性假设、激励机制等理论之外,重点关注数理模型(Formal Models)。经典人类群体行为模型有理性选择、阈值行为、临界群体、起立鼓掌等模型,为人类网络群体行为提供模型支撑。针对网络群体行为,还存在特定的激发性因素:(1)网络匿名性。匿名性在《现代汉语词典》解释为“不具名或不写真实姓名”。网络匿名性是互联网世界常态,很难将网络表达主体与现实真实个体对应起来。比斯坦纳的漫画“在互联网上,没有人知道你是条狗”是一个形象说法。个人不必承担现实社会中人与人面对面交往面临的人情、道德、法律压力,言行更具随意性和原始性。网络匿名性为社会矛盾、负面情绪甚至社会戾气发泄提供了渠道,引发了网络欺骗、越轨行为等,催生舆情事件。(2)参与成本降低。与现实社会组织相比,网络群体参与成本低、互动效率高,民间性、自愿性等特征明显。成本是行为者为获得某种收益而付出的现在与预期的代价。通信技术发展大大降低了个人的参与成本、组织成本。互联网进一步拓展了通信技术,突破了时空界限,信息成本、机会成本、“舞台设置”成本大为降低。在互联网上发言、讨伐、攻击而不受处罚成为常态。(3)不受时空限制。移动互联网更加剧了这一过程。打破既有时空边界, 在社会交往、社会表达、社会分化等多个维度形塑了社会。例如,熟悉与陌生的边界变得模糊,社交媒体动员可形成社会关系。民众可随处入网参与网络事件,催生网络舆情爆发。(4)群体极化。经由群体讨论之所形成的群体态度,比之前群体成员个人态度平均值更趋极端化。相对于面对面交流,网络舆情更容易出现群体极化。目前,激发性机制研究相对充分,本文将重点挖掘限制性机制,包括冷却机制、替代效应机制、注意力机制等设置。
(二)单一事件的冷却与衰退机制
衰退期“少而热”,话题相对集中 。但是,冷却衰退机制全过程发挥作用。网民具有“游击队特征”:用点击投票,喜欢就参与、不喜欢就退出。因此单个事件衰退,呈现“来得快、去得快”特征 。互联网时代,键盘参与、拇指参与、弹幕参与成为新常态 。相关衰退机制有:(1)自然冷却机制。事件本身存在自然衰退机制。指出随着时间流逝,舆情自然呈现传播次数下降趋势。(2)内容吸引力衰减。在新媒体时代,网友更愿意做“吃瓜群众”围观爆料。在很大程度上不关注问题本身,因此内容吸引力至关重要。随着爆料减少,事件衰退成为必然。(3)问题被解决或明朗化。黄微等(2020)指出事件一旦逐渐明朗化,舆论主体就会失去参与积极性 。例如“罗尔事件”真相一清晰,网民立刻散去,热度直线下降。(4)经济成本压力与其他压力。舆情的推动需要付出经济成本,事件占用的社会资源增加,便开始反作用于舆情传播 。经济成本压力迫使个体在某个阶段退出。此外,个体还存在政治、法律、技术等压力源。(5)舆情主体参与度自然衰减。网民的参与程度决定事件“枯荣”,多次参与存在效用衰减规律,第一次参与时主观感受十足,如新鲜感、刺激感等,第二次之后逐渐衰减,呈现“边际效应递减”。(6)传播渠道最大化限制。特定社会技术条件下,网络拓扑结构相对固定。用尽所有传播渠道,就会出现传播枯竭。负面事件还存在限制发布、限制转发、限制评论等人为干预措施,传播渠道被进一步限制。(7)平台效用枯竭。权威媒体、新媒体、社交媒体等平台存在“嫌贫爱富”机制,为了持续获得网络点击与流量,会不断推新,换掉“过气”事件。
(三)多事件互动的替代效应机制
除了单个事件衰退,还存在多事件互动。新事件在发生后,通常会将网民关注从其他事件吸引、转移至该新事件,使自身成为新晋热点事件。可见,系统内多事件存在替代机制:(1)替代效应具有普适性。“替代效应”原本是经济学名词,指由于商品价格上升而引起其他商品对其取代的现象。替代效应具有普遍性,包括人对人替代、商品对商品替代等。替代机制在网络舆情中也存在。一件突发事件发生后,引起公众关注,公众在好奇心驱使下关注新事件,旧事件的关注度下降。新事件的替代,加速了旧事件衰退,俗称“引流”或“导流”。(2)替代效应的稳健性与双刃性。互联网世界每日都会发生多起事件,替代效应是一个连续存在的稳健过程。因为持续存在新事件的吸引和引流作用,旧事件衰退与被替代具有必然性。替代效应是双刃剑。新事件替代旧事件,加剧生命周期循环。在长区间内,会出现众多生命周期轨迹叠加演化的轨迹曲线集合。(3)替代效应与生命周期叠加作用。替代效应不影响生命周期,但导致冲顶加快、提前结束。实际上,我们所观察到的是生命周期的叠加状态。除了替换效应外,还存在平行上升、同起同落等独立效应。所谓独立效应,实际是网络舆情事件的生命周期规律。
(四)注意力分配的总限制机制
无论单事件关注度衰减(冷却衰退),还是多事件互动(替代效应),注意力分配都起总的决定性作用,因为:(1)注意力是进化心理学基础。注意力是进化心理学基本概念,指人将意识指向、集中于某事物的心理活动与过程。注意力是生物界包括人类为了生存发展进化出来的思维过程,背后是一种基于进化的效率机制与本能。生物需要从关注众多目标过渡到聚焦少量重要目标,减少不必要能量消耗,提高效率。人类亦然,注意力集中到复杂场景中少数对象,忽略看似明显或暂时无关对象,可提高行为效率。(2)注意力具有跨领域性。马奇(March)指出“注意力集中的能力是有限的。人们不可能同时关注所有事情:接收信号过多,决策相关事情过多”。注意力是一种稀缺资源,由于资源、能量、能力、条件、阶段等限制,人必须要区分轻重缓急。分类、分层、分阶段等,都属于常见分配行为。(3)注意力分配的多层次性。时间社会学领域,注意力分配包括宏观、中观、微观三个层面。微观层面,专注从组织时间到个体时间;中观层面,专注从社会时间到组织时间;宏观层面,专注从天文时间到社会时间。(4)总量约束与网民注意力分配机制。基于个体注意力的有限性,网民注意力同样存在总量限制,这是生命周期的总根源性机制。截至2019年6月,我国网民规模8.54亿。国民即网民,人手1~2部智能手机。在经济与产业形态上,注意力机制衍生出“平台经济”“流量经济”新业态。从任一事件到整体网络,网民关注度总是有限的。注意力总量限制是人类网络群体行为呈现生命周期规律的总根源。因此,网民的精力、关注、点击、转发、点赞等均存在总量的约束性。
(五)人类网络群体行为生命周期动力学机制整合
在网络舆情方面,典型涌现场景为:特定时间内,出现一系列网络事件,网络事件均有生命周期与峰值特征,尽管峰值高度、轨迹走势等存在异质性。基于衰退机制、替代效应机制、注意力分配等机制,可在理论上实现动力学机制整合:(1)网络舆情事件具有常态性、随机性。每天都在发生事件,持续引发网民关注、点赞、评论、互动、转发等网络群体行为,但众多事件中存在“头部效应”。全国性热点头条事件,每天只有1~2个,这体现出一种极化分布。(2)生命周期具有稳健性与形态特征异质性。生命周期规律具有稳健性,具体事件的生命周期存在形态与轨迹异质性。主题方面,可能受到议程设置等影响,出现具体差异。李静等(2020)认为事件属性、媒介传播、网民参与、政府干预等都会影响网络舆情热度。这些因素,只影响具体事件的生命周期形态、特征走势,不会消灭生命周期规律。(3)生命周期是“阳”与“阴”两种力量共同作用的结果。关于促进性力量,已经有很多讨论。限制性、制约性力量的梳理,以及基于此理论的ABM仿真建模,是本文的创新性理论贡献。限制性机制是求解生命周期的核心钥匙,均稳健地存在。单一事件主要受到冷却机制影响(生命周期是自然趋势与形态)。但事件不是孤立存在的,必须分析多事件互动。重点是替代机制,需要研究这种实际趋势或现实形态。整个互联网场域多事件系统,都受到网民注意力资源总量的限制,分配越多,生命周期特征(寿命、峰值等)越发突出。
三、生命周期动力学特征与ABM仿真模拟
上述机制研究多停留在理论分析、统计分析、案例挖掘阶段,可重复性不足。本文进行理论与方法创新,将整合性机制纳入仿真模型。
(一)现实仿真目标大数据特征挖掘
具体包括:(1)数据来源。通过“知微事见”平台提取网络舆情事件生命周期轨迹。Y指标为总发文量(综合热度),X指标为自然天。平台收录短时间内高传播量、长期保持一定传播量、社交媒体热议等事件,已支撑学术论文发表。因为事件众多,故选择社会热点类,2019全年共有147个案例(生命周期趋势见图1A)。(2)总体趋势考察。生命周期高度具有异质性,峰值越高,发文量越多、关注度越高。生命周期寿命中,仅有一例持续21天,其余均为4~11天;全年仅有24天未发生网络舆情事件。事件之间存在共存与交叉(替代效应),初步印证网民注意力有限。(3)考察替代效应机制。并存的生命周期轨迹曲线之间存在交叉,相邻峰值之间存在时间差。初步表明相互之间存在注意力分配负相关,说明注意力总量是固定的。(4)考察注意力机制。网民注意力资源具有随机性,围绕均值上下波动。见图1B,每日关注总量对数近似服从正态分布(去极端值)。说明每日关注度存在均值效应与总量限制。(4)时间序列分析。如图1C,每日汇总关注度的自相关图缓慢单调递减,出现拖尾,原始数据为非平稳序列。周一到周日季节性因子结果为1.156 11、0.928 49、0.976 51、1.063 98、0.995 06、0.961 74、0.918 11。说明就社会热点事件而言,网民注意力在周一与周四分配较多。如图1D,采取一阶差分处理后通过检验,获得平稳序列。进行Ljung-box随机性检验。H0为序列不相关,Ha为序列相关。P-value=0.49>0.05,即为序列不相关(白噪声)。说明网民注意力资源具有恒定性。基于平稳序列进行趋势预测如图1E,每日总发文量即总热度数据未来也是在一近似常数极小值范围内波动。这再次支撑了网民注意力的总量具有恒常性与定数。
(二)生命周期仿真建模与智能体参数设定
网络群体行为影响因素众多,涵盖主体客体、相关事件、舆情空间、新闻媒体、社交媒体、意见领袖等。这就需要在确保效果的前提下,总结、抽取、提炼出上述核心行为机制,进而构建多主体互动过程,复现生命周期涌现。在NetLogo软件中,智能体Agents包括静态智能体Patches、动态智能体Turtles。关于此,陈永国等(2014)仅用Patches模拟网民行为,行为机制过于简单。胡珑瑛等(2016)在SNO模型中设置网民、媒体、政府三类智能体。但主客体涵盖不足,主体类型众多,包括普通网民与网络大V等;客体同样类型众多,除政府之外还有单位、组织、个人等。鉴于上述智能体设置得失,本研究偏重动态属性与互动过程,设置三类本质行为体:(1)互联网空间。使用静态Patch模拟互联网环境。本研究侧重考察普适性、代表性、稳健性,使用Patches构建整个网络空间。网络世界设为正方形(边长101),总面积101*101=10 201(Patch2)。上下与左右连通,刻画互联网世界渗透性、连通性等拓扑结构特征。总运行时间为Ticks,每一步自动加一。匹配一年时间,每Tick代表一小时,每次仿真365天=8 760Ticks。(2)动态网民智能体Netizens。任立肖等(2014)基于无标度网络,增加新网络节点。这是静态设置,限制了微观自主行为,本文设置网民自由移动。根据第44次《中国互联网络发展状况统计报告》网民增势已经放缓。截至2019年6月规模为8.54亿,较去年仅增加1.6%。基于人口生育率下降,网民规模长期将大概率稳定,一年内更加不会出现大的变动。设置网民数量固定值,在500以下区间。网民带有“访问目标”属性,刻画其关注特定事件(点击、访问、互动、参与等)。Netizen可移动并访问热点事件。(3)构建热点事件智能体(Hots)。现有研究多将网络事件视为一种静态性、被动性结果。本文视其为具备生命特征的智能体。尽管具有突发性与随机性,但网民注意力有限,事件存在总量限制。每天头条热点不超过3~5个。设置事件保有量在1~10范围。事件属性“热度值”(pop)表征关注热度高低。被访问次数越多,热度越高。系统中不断有新事件按照一定概率水平(hot-growth-chance)生成。新事件生成后,就可以被网民访问。每访问一次,热度值随机增加(add-per-pop)在1~100范围可调节,见图2。网民访问存在效应异质性。为体现网民、意见领袖、媒体等不同类型行为体贡献度,引入随机权重系数Wit∈[0,1]。本文追踪智能体、随机生成权重系数,具有动态性、随机性、自主性、智能性。周惠子与张杰(2019)认为随着移动智能终端与自媒体普及,不相关网民也通过自组织聚集形成共同体,引爆网络舆情。个人和意见领袖之间界限变得模糊。个体均有机会在特定事件中扮演领袖角色,本文设置更符合现实。(4)生命周期过程。如果行为机制真实合理,仿真结果将高精度呈现生命周期规律。在模拟过程中,动态计算事件k在每个时刻t热度值,作为事件的生命周期全过程取值,简称生命力。热度值降到零,事件即死亡。同时,不断有新事件生成,众多生命周期轨迹在系统中生生不息、新陈代谢。相关参数与行为规则设置详见表1。
(三)动态行为规则与ABM智能仿真流程
仿真运行流程包括:(1)初始化与智能体设置。生成互联网世界、网民智能体、事件智能体等。初始事件数量为1。基于网民数量稳定,注意力总量有限,设置进入稳定更替期保有5~6个事件。不足5个则生成新事件补足。(2)网民追热点。网民追热点即寻找目标纳入属性值Goal,存在两个模式。第一是随机事件目标。刻画网民在日常生活中盲目、随机、无序、持续地刷新闻、追热点等行为。第二是受邻居即社会网络影响。鉴于网民的相互影响真实存在,在模型设置方面,综合两种目标搜索与访问模式。网民优先追随邻居网友路径。在自身一定距离半径(netizen-vision-dist)内寻找。如有,则跟随其路径去访问事件。刻画因朋友、熟人分享而引发的连锁围观行为。头条、榜单、热搜、朋友圈转发等都是现实表现。否则,采取第一种即随机访问。(3)停止访问与转向新目标。边际效应递减普遍存在于人类社会活动中。例如王家坤等(2019)发现,控制策略在舆情初期边际效用最大,在后期边际效用接近零。基于边际效用递减,事件多次曝光,网民倾向于感到厌倦。因此,应设置访问次数总量限制。个体最大访问次数为变量X(初始X=1)在1~5之间随机取值。个体访问事件达到X次之后(具体X取值在不同仿真模拟进程中存在随机性差异),不能访问即不再增加该事件热度,转而关注并访问新事件。
(四)生命周期动力学过程的数学表达
旧事件不断死亡,新事件持续被网民访问。用i代表个体网民,网民总量为随机固定值。用k代表具体事件个体,K为总事件数量。t代表系统运行某时刻,T为最大仿真时间步数,则t∈[0,T]。首先看宏观涌现系统公式(1),PopKt指t时刻系统总体热度,即t时刻所有事件k生命力值(热度)加总。其次,个体事件k生命周期全过程用Popkt刻画。当PopKt>0,事件k在存活状态可被访问。当PopKt=0,事件死亡不能访问。个体事件动力学机制更加微观复杂,式(2)与式(3)分别是微分与差分形式。见式(2),任意时刻t某一事件k热度属性PopKt变化量为访问增加量为Δtk同时减去固定损耗C。充分体现出阴阳两种力量机制:(1)热度增加机制。网民行为链条涵盖四个逻辑过程:第一需要事件被个体纳入访问目标。记为0-1逻辑型数值Gti→k,表示t时刻个体i是否将事件k作为访问目标。第二个体能否访问该事件。记为0-1逻辑型数值Vti→k表示t时刻个体i能否访问k事件。事件k死亡或者个体i访问次数达到最大,均不能访问。需要在t+1时刻换目标访问。第三是个体访问带来事件热度增加。记为连续型变量Atik表示t时刻个体对事件热度贡献。其四是个体访问对事件热度增加的权重。记为连续型随机变量wtik(2)自然衰退冷却机制。每运行一个时间,热度值按一定概率水平(deduce-per-pop)固定损耗并冷却。在1~100范围内随机取值。这是伴随每自然损耗与必然衰减。式(3)同样体现阴阳两种力量。事件动态热度值POpkt为之前热度值加上t时刻热度增加值,减去固定冷却与成本消耗C。
(五)基于现实大数据匹配求解最优参数解
参数设置与过程仿真,以拟合现实大数据为核心。唯其如此,才能实现生命周期动力学机制验证及表明仿真切实提取了核心机制。现有研究多考察不同参数取值导致的宏观演化仿真结果,具有随意性。本研究基于仿真与现实最优拟合,求解最优解,具有创新性。基于前述大数据特征构建待拟合目标函数fsim(·),通过参数谱系化遍历获得仿真结果fsim(·)。相关参数变量在范围内谱系化遍历:网民数量netizen-count从1开始每次增加50,最高N=500;网民访问热点事件增加热度值add-per-pop从1到100,公差为1;事件热度固定损耗deduce-per-pop从1到100,公差为1;事件保有数量large-hots从1到10,每次增加1;事件生成概率hot-growth-chance从1%每次增加1%到最高10%;网民搜索邻居的视野半径netizen-vision-dist从1到100每次增加1。每一组特定参数组合,产生一次仿真结果。依据参数谱系设定,仿真运行1万次。每一次重复10次,求取稳健性均值仿真结果fsim(·)。遍历与仿真一共10万次。计算全局拟合度指标即二者差值△=fsim(·)—freal(·)在差值最小处获得可行最优参数解Parameters(*),进而实现最优化匹配与高精度仿真。所谓“可行”是指基于10万次仿真并拟合特定大数据对象特征所得,即最优解有效性具有条件性。表2最优解参数取值是对大数据对象最优复现:网民智能体数量为100单位即netizen-count=100,网民访问一次增加add-per-pop为15个单位热度,固定冷却损耗deduce-per-pop为11热度,新事件生成概率hot-growth-chance=30‰,最事件保有量large-hots=4个,网民搜索范围netizen-vision-dist为12个单位距离。
四、生命周期仿真最优解与大数据匹配度考察
存在最优解只能说明拟合具有有效性,还需要考察稳健性。故基于最优参数解附加50次重复模拟,综合考察重复稳健性、拟合有效性。考察结果令人满意,有效性与稳健性均通过匹配性检验。基于趋势比较、形态比较、数据比较等特征拟合,对现实目标函数fsim(·)与仿真结果fsim(·)进行匹配性验证。单个事件方面,涉及曲线形态、峰值高低、峰值时点、寿命长短等,包括绝对值和相对分布等;多事件方面,包括涌现数量、趋势比较、峰值间隔、替代间隔、峰值差值等。
(一)考察相同时间事件涌现数量匹配度
最优解仿真产生50次平行结果,据此获得任一参数变量观测值分布(N=50)。如果行为机制设计合理,最优解仿真至少应满足三项:既要复现每一个事件生命周期过程,也要复现多事件交织替代动态过程,还要复现系统宏观涌现特征。首先在系统宏观层面上,仿真涌现与真实观察是否匹配。大数据案例与仿真过程的时间相同,均为一年。因此第一个直观指标,侧重考察涌现数量匹配。又因为现实是某一次观测,仿真是50次平行结果。转为考察仿真结果分布特征。如图3,仿真接近完美地吻合了现实。本研究从三方面考察:(1)准确性。仿真均值Mean=144个事件,现实为147,二者相差3个。误差占绝对值2%,微乎其微。标准差SD=5.19,误差3在一倍SD之内。(2)稳健性。如图3分布特征,趋中性良好。说明行为机制具有合理性、有效性、稳健性,不存在突变相变等非线性情况与系统性震荡,仿真结果靠拢均值。(3)可预测性。除了趋中性,分布对称性同样良好,可视化Q-Q图检验表明,大概率服从正态分布。可基于均值Mean与标准差SD计算并获得经验概率密度函数(Empirical Density Function)完全信息。
(二)宏观演化轨迹匹配:生命周期涌现的宏观考察
在宏观系统层面,仿真需要涌现出稳健的生命周期规律。寿命是生命周期在时间轴最直接指标。汇集现实大数据案例事件,按照寿命天数(非自然天)排序,第1、2、3天直到最后一天即寿命天数。图4A呈现真实生命周期轨迹曲线集合。X轴为排序天,纵坐标为生命周期值。真实事件可用二维数组(t,yreal)表示,记录每日t活跃度y即动态生命力。同理使用(t,ysim)刻画仿真事件生命周期,一次仿真所得生命周期轨迹曲线集合见图4B。现实生命周期跨度不超过12天,先在较短时间内冲顶峰值,然后进入较长衰退区间。比较4A与4B,生命周期仿真形态拟合较好,事件也在较早期热度冲顶。除趋势观察,还可精确计算生命周期并可视化(操作时取对数)。按照排序时间(第0、1、2、3...天)计算所有事件平均活跃度,获得现实生命周期函数(t,ŷreal),见图4C与4D虚体曲线。上下界依据其标准差绘制。基于模拟数据计算仿真生命周期函数(t,ŷsim)见带上光滑实心曲线,依据其标准差绘制上下界。图4C按照单日计算,图4D计算两日平均。真实数据是一次性观测,偶然性与突变性无法排除,曲线平滑度不能保证。仿真数据汇总50次平行结果,形态上更加理想化与平滑化。现实与仿真上下界自然重叠范围灰度更深为二者叠加,表示差异不显著。比较图4C与4D发现,重合部分面积前者更大,即单日计算生命周期拟合度更佳。
(三)生命周期寿命与分布匹配:网络舆情持续天数考察
首先考察寿命均值吻合,进而考察分布特征吻合:(1)寿命均值匹配度考察。采用卡方检验考察拟合度即寿命均值是否存在显著性差异。原假设H0二者相等,H1不相等。拒绝域为0.05,双侧检验。仿真数据第一组,现实为第二组。计算卡方值χ2=0.011,P-value=0.683>0.05。不能拒绝H0即认为二者寿命不存在差异。基于均值无差异,考察分布匹配度才有意义。(2)寿命离散型分布匹配。采用离散型与连续型两种形式考察分布匹配度。现实寿命绝大多数在2到12天区间,4~11天高密度集中。图5A、5B、5C考察离散柱状图分布。图5是实际寿命分布,5B为仿真50次结果,5C为仿真50次均值。可见,仿真与现实分布匹配度良好。一是分布柱状图整体形态匹配度极高;二是双侧极端值分布匹配,2天与12天概率都低;三是高密度区间匹配均为4~9天;四是细分天数分布考察,均有8天>7天>6天>5天>4天>3天>10天的一致性顺序。(3)寿命连续型分布匹配。时间可以无限细分,如果换算到小时,还存在2.5、2.75、8.025天等情况。同时需要排除柱状图宽度不同导致结果差异的可能性。因此,为进一步增强说服力,采用连续型概率密度函数,保持任意非整数天都有意义。对应5A、5B、5C离散型分布,图5D、5E、5F采用连续型概率密度核函数(Kernel Density Function, KDF)。图5D真实寿命分布核密度曲线与仿真曲线完美匹配。图5E为50条核密度曲线,汇总计算核密度曲线得到图5F。图5E、图5F无论整体趋势还是局部轨迹特征,都高精度完美匹配。这表明,ABM仿真模拟大概率抓住了核心行为机制。
(四)生命周期峰值与形态等匹配性验证
图4与图5已经验证了仿真有效性与结果稳健性。生命周期函数包括寿命,均为宏观面结果。我们继续对生命周期予以细节考察。生命周期在X轴核心指标是寿命,在Y轴核心指标则是峰值。有了峰值与寿命,就可以刻画生命周期本质过程即画三角。峰值与寿命同等重要,在各自维度上共同决定生命周期形态特征,即三角形长什么样。具体细化考察:
(1)峰值Peak绝对值匹配性考察。通过引发社会关注、施加舆论压力、促进问题解决等,峰值在很大程度上决定网络舆情事件能否取得预期效果。两方面考察仿真与现实峰值(对数)。第一是考察均值匹配。现实峰值分布如图6A,均值Mean=-0.90、标准差SD=0.116。仿真峰值分布如图6B,均值Mean=-0.62、SD=0.096。统计上不存在显著性差异。第二是分布特征匹配。二者峰值范围都在区间[-1.5, 0],高度吻合。考察图6A真实峰值分布与图6B仿真峰值分布,发现二者趋中性均良好。QQ检验发现,二者均大概率接近正态分布。同时又鉴于X轴数值范围一致,二者峰值无显著差异,充分说明仿真匹配度良好。
(2)多事件替代效应与峰值间隔匹配度。若干事件生命周期叠加与互动,构成了一个整体性系统涌现。生命周期在高度上以峰值为核心特征,衡量最大影响力与社会冲击力。可以从峰值出发,考察多事件替代机制。如果该机制存在,应在仿真过程与真实大数据同时体现。基于注意力分配,同期或近邻事件之间的替代力度无疑最大。这可以用相邻峰值时点差值来刻画,如果差值特征清晰,可必然存在连续而稳定的替代过程。不失为替代效应稳健性存在的可行检验方法。图6C为现实大数据中相邻峰值天数差值分布。均值Mean=2.47,标准差SD=5.610。说明现实某事件替代前一事件平均需要2.47天。图6D为50次仿真模拟所得分布,均值Mean=2.30,SD=4.923。仿真事件替代旧事件平均需要2.3天。当然,还可以根据均值与标准差推算任意替代天数概率水平。比较二者,取值范围重合,统计上无显著性差异。二者分布特征形态高度吻合。高密度值都在第1天左右,均存在右长尾,Q-Q检验发现分布形态亦高度相似。这说明,替代机制稳健存在。仿真不仅复现了现实替代机制,而且实现不可追溯微观行为过程的精准还原。
(3)生命周期形态特征与相对峰值时间(TP/Span)考察。相对峰值时间是峰值时刻(Peak’s timing)占总时间即寿命Span的百分比。其在很大程度上刻画生命周期轨迹形态,具有社会与政策含义。比值越大,峰值出现越晚。比值越小,出现越早,突然性越强。可以通过估计方法稳健预测峰值何时出现。对于事件当事人、应急管理部门等主体,都有实践指导意义。他们应在峰值日前后做好心理、物质等充分工作准备。如图7A现实百分比均值Mean=0.56,标准差SD=0.007。说明现实大概率在56%进度出现峰值。图7B仿真百分比均值Mean=0.62,标准差SD=0.009。仿真大概率在62%进度出现峰值。比较二者分布,取值范围完全吻合均匀,统计上无显著性差异。并且二者分布趋中性良好。Q-Q图表明二者分布均大概率接近正态分布。再次印证,仿真与真实生命周期形态高度匹配。
(4)生命周期形态特征与相对峰值力量考察(Peak/Total)。考察峰值当日参与度占总参与度之例。Peak代表峰值处参与量,Total代表总量即总参与量、总能量释放等。Peak/Total刻画表示峰值比例即相对力量大小。比值越大,事件越突兀、越突然,峰值冲击力越大。比值越小,峰值冲击力越弱,越倾向于平缓释放与均匀发力。图7C现实均值Mean=0.37,标准差SD=0.010,说明峰值力量贡献度为37%。图7D仿真中均值Mean=0.30,标准差SD=0.008,说明相对力量为30%。二者分布趋中性均良好,都接近正态分布。真实分布更加接近,仿真存在一定右偏。考察取值范围,发现完全重合均为[0.1, 0.6]。统计上亦无显著差异。
五、结论与思考
生命周期模型在微观层面抓住了人类网络群体行为的核心机制,在宏观层面实现对生命周期的高精度仿真与动态过程复现。有如下结论与思考:
(1)科学认识人类网络群体行为“生命周期”宏观涌现规律。人类网络群体行为以网络舆情为主要表现。由于缺乏“生命周期”规律认知,很多人面对网络舆情“如临大敌”,视其为“洪水猛兽”,一旦发生,第一反应就是压制与干预。邹红军等(2018)关于北京中关村二小欺凌事件研究揭示,学校及地方教育部门在事件初期采取忽视、压迫态度希望阻止事件发酵。如果掌握科学规律,就会发现这些策略都是“过度防御”。互联网每天都在发生众多热点事件,都存在生命周期,如“七天传播定律”。及时正面回应是解决舆情热点、降低冲突风险的关键。人类网络群体行为生命周期理论将更好地指导政府、企业、组织、公民等社会主体全局地、科学地、精确地预测、应对、发起网络群体行为。
(2)个体微观行为支撑人类网络群体行为宏观演化。作为一种宏观系统层面涌现,人类网络群体行为必然被微观行为支撑,网民是主要微观行为体。理论研究与数据挖掘范式具有经验性、随意性,已经出现对可重复性危机的关注。研究发现:国外可重复性研究占比54.9%;国内占比19.1%,约37%存在不规范现象。ABM多主体仿真为解决可重复问题提供了解决方案。本文构建网民与事件两类微观智能体,设置自主行为机制(冷却机制、替代机制与注意力机制)实现高精度拟合。整个仿真模拟过程不仅可控,而且全部结果可重复、可追溯、可比较。不会因为研究者主观理解不同而导致结果差异。ABM仿真切实保障了过程与结构的有效性(效度)与稳健性(信度)。
(3)重视冷却效应、替代效应、注意力转移等微观行为机制。仿真研究表明,网民至少存在三种微观行为机制:第一,冷却效应稳健地存在。任何网络事件,效用必然随着参与次数增加而递减。多次看到雷同信息,倾向于不感兴趣、不再关注。事件存在自然冷却过程,不必担心热度会居高不下。第二,替代效应是事件衰败的加速器。尽管存在自然衰减冷却过程,但并存、并发事件所导致的网民关注度即流量转移,加剧了衰减效果。新旧事件之间存在稳固的替代关系。旧事件被新事件替代将加速生命周期终结。第三,注意力总量的限制性。如果冷却效应和替代效应均失效,注意力总量限制也会导致生命周期出现。上述行为机制,深刻地塑造了生命周期的形态与轨迹。
(4)努力提升舆情管理科学性与精确性。基于“流量动力学”,生命周期ABM模型既能评估干预策略效果,也可通过政策模拟指导或发现更有效的干预策略。人工干预,不能消除生命周期,但可局部改变轨迹与特征。人工干预包括:基于替代机制的干预。在网上释放、制造热点事件,冲淡既有事件影响力,抑制其热度,促使生命周期提前结束。亦可遏制新事件,延长既有生命周期。根据语义距离干预。仿真发现位置接近事件之间干扰与“引流”效果突出。相同主题易被同类网民关注。可精准吸引关注,实现“精确导流”,如释放相同主题新事件,加速目标事件平静;抑制释放,延长目标生命周期。根据注意力分配干预。常用方法包括:议题设置、精准营销、算法推送、内容创新、流量固粉、网络辟谣等。
文献引用格式
吕鹏:人类网络群体行为生命周期模型研究[J].湖南师范大学社会科学学报,2021,50(06):1-14.
本文刊发于《湖南师范大学社会科学学报》2021年第6期“国家社会科学基金重大项目成果推介”栏目,参考文献从略。
欢迎投稿
《湖南师范大学社会科学学报》
http://hnss.cbpt.cnki.net
《湖南师范大学社会科学学报》
国家社会科学基金资助期刊
中文社会科学引文索引(CSSCl)来源期刊
国家期刊奖百种重点期刊
全国中文核心期刊
中国人文社会科学核心期刊
全国高校社科名刊
主编:李培超
副主编:尹金凤
本文责编:尹金凤
编辑部电话:0731-88872471
微信公众号编辑:向梓源
相关阅读
方兴东:“互联互通”解析与治理——历史维度与全球视野透视中国互联网深层次的问题与对策
陈华明,刘效禹:从“凝固”到“流动”:媒介学视阈下的网络舆情再认知
易前良:网络中立:媒介架构视域下互联网规制的政策渊源与利益协商